[登壇しました] DXに最適な分析ソリューション – Looker: BEACON Japan 2020 #BeaconJapan
Looker社によるロードマップ、顧客事例、パートナー企業によるセッションが堪能出来るデジタルイベント『BEACON Japan 2020』が2020年09月03日から2020年09月24日までの毎週木曜日、計4日間に渡り開催されています。
そして、私(大阪オフィスの所属だが現在は奈良県でリモートワーク中の玉井)が、Snowflake社と共同で登壇致しました。
当エントリでは、私が登壇したセッションである、「DXに最適なソリューション」のレポートをお届けします。
セッション概要
公式ページで紹介されているセッションの概要情報は以下の通りです。
登壇者:
・松下 正之 氏, Senior Sales Engineer, Snowflake株式会社
・玉井 励 氏, アナリティクスコンサルタント, クラスメソッド株式会社
発表内容:
Lookerのパートナーであるクラスメソッド社とSnowflake社による共同セッションでは、Looker + Snowflakeの組み合わせにより従来型DWH・データプラットフォームで抱える課題に対する解決策とメリットについて、デモを交えてご説明します。
セッションレポート
前半はSnowflake社、後半はクラスメソッド(っていうか私)という形で進行しました。
イベントのセッション動画については下記リンクにてアクセス可能です。
Snowflake社パート
なぜDXが必要といわれているのか?
- 現在、新しい技術がデータ活用そのものを変えている
- クラウド
- データの爆発(急増)
- 分析の多様化
- ITだけでなく、ビジネスにも影響を与えている
- 迅速な意思決定
- コスト削減
- カスタマーエクスペリエンス
- そのような時代に対してSnowflakeという製品を提供している
Snowflakeについて
- このミッションをSnowflakeと通して達成しようとしている
- 2012年に設立、3年間の開発期間
- 2014年に顧客第1号
- 2015年に一般提供開始
- 今は4000社くらいの顧客がいる
- クラウド型のデータウェアハウス
- データを一箇所に貯めて、いつでもどこでもだれでもデータ分析ができるようにする
- SaaSとして提供
- オンプレミスの技術は一切使っていない
- SQLベースで使用できる
- 従来の技術者がそのまま利用できる
- データウェアハウスだけでなく、他のワークロードも(Snowflake1つで)対応できる
- データエンジニアリング
- データレイク
- データアプリケーション
- データエクスチェンジ
- データサイエンス
- 前述した各種ワークロードのイメージ
- 著名なパブリッククラウド上で稼働している
アーキテクチャについて
- 従来のDWHアーキテクチャでは、前述した色々なワークロードを実行できなかった
- Snowflakeは新しいアーキテクチャを採用
- データは一箇所に集約
- コンピュートはマルチクラスタ
- 最大の特徴は「コンピュート(クエリを処理する)とストレージ(データ)が分離している」こと
- DXという視点でデータプラットフォームが解決しないといけない課題
- 同時に色々な処理ができない、重くなる
- スケールアウトが難しい
- 構築に工数・費用がかかる
- Snowflakeは上記の課題を解決できる
- 同時実行性
- プラットフォームに対する管理作業を極力ゼロにしている(ニアゼロ)
- もう少し詳細な活用例の説明
- 真ん中にストレージ、暗号化及び圧縮してデータが置かれる
- 歯車アイコンが「仮想ウェアハウス」
- アルファベットは「サイズ(スペック、大きさ)」
- 仮想ウェアハウスは複数配置できる
- ETL用
- BIツール用
- データサイエンス用
- 複数の仮想ウェアハウスは競合しない
- 仮想ウェアハウスの追加は画面上ですぐできる
- サイズの変更もすぐできる(スケールアップ)
- クラスタ数を増やすのもすぐできる(スケールアウト)
- 仮想ウェアハウスについてのまとめ
- 横軸は「クエリ処理にかかる時間」
- 色はユーザー
- 青と緑の2人
他の機能
- タイムトラベル
- 過去の状態のデータを参照できる
- バックアップを極力不要にする
- クローン
- すぐにデータを複製できる
- クローンしてもデータ量は2倍にならない
- 半構造化データ対応
- JSON等をそのまま入れられる
- JSON等をSQLで扱える
- レプリケーション、フェイルオーバー、フェイルバック
- クロスクラウドで実行できる
- データエクスチェンジ、データマーケットプレイス
- アカウントを超えて完全なデータ共有ができる
- データ自体はコピーされない(増えない)
- マーケットプレイスで複数者にデータを共有・公開できる
セッションのまとめ
- スケールアップ、スケールアウトが容易
- コストと生産性の両立
- コンピュートとストレージが分離
- 今日のデータ活用のために、古いテクノロジーを使い続けるのは効率が悪い
- 新しい課題には新しいテクノロジーを使いましょう
クラスメソッド株式会社パート
私はLookerとSnowflakeを組み合わせたデモを実施しました。ということでスライドは特にありません。実演したデモの内容は下記の通りです。
SnowflakeのデータシェアリングされたデータをLookerで可視化
Starschema社がデータシェアリングを通じて提供している新型コロナウィルスのデータを使ってLookerダッシュボード作成しました。詳細は下記の記事をどうぞ。
Lookerダッシュボードのパフォーマンス向上をSnowflakeの仮想ウェアハウスのスケールアップで対応
Snowflakeのサンプルデータである「TPC-H」を使用して、非常にパフォーマンスの悪いLookerダッシュボードを作成します。そして、Lookerが使用するSnowflakeの仮想ウェアハウスのタイプをXS→2XLに上げるという簡単操作のみで、Lookerダッシュボードのパフォーマンスを一気に向上するデモを行いました。
埋め込んだLookerダッシュボードに対するアクセスが急騰した時にSnowflake の仮想ウェアハウスをマルチクラスタ化して対応
他サイトに埋め込んだLookerダッシュボードの紹介と、Snowflakeの仮想ウェアハウスのマルチクラスタ化を紹介しました。
Lookerダッシュボードはエンベッド(他サイトへの埋め込み)が非常に柔軟で強力です。しかし、埋め込んだページに対するアクセス数が非常に多い場合、それはそのままLookerダッシュボード→後ろのデータベースへのアクセス増…ということになります。
そういう場合、Snowflake だと、仮想ウェアハウスのクラスタを簡単操作で増やすだけで、処理の並行性を上げることができます。また、クラスタ数を調整すれば、アクセス数に合わせて、動的にクラスタ数を変える(オートスケーリング)こともできます。
まとめ
LookerとSnowflakeは全く別のテクノロジーではあるのですが、示し合わせてるのか?というくらい相性がいいです。データ分析基盤の構築を考えられている方、ぜひ一度SnowflakeとLookerという組み合わせを検討してみてください。